Контент в нейросетях: правовые аспекты регулирования

Очевидно, что нейросети активно используют представители креативных индустрий, среди которых авторы, издатели, сценаристы, дизайнеры. По данным исследовательской платформы Enterprise Apps Today, уже к 2025 г. 10% всего контента в мире будет создано генеративным искусственным интеллектом (ИИ). При этом по мере совершенствования ИИ-инструментов и их более активного применения у авторов и издателей всё чаще возникают вопросы защиты прав: неправомерное использование охраняемых произведений и иллюстраций в качестве обучающего контента для ИИ, пиратство, распространение аудио- и видеодипфейков, синтезированных голосов и пр. Всё это может нанести серьёзный экономический и репутационный ущерб создателям цифрового контента.

Как регулировать отношения между правообладателями и пользователями ИИ? В чём основные угрозы и какими регламентирующими документами их можно преодолеть? Как выявлять нарушения при использовании ИИ и кто несёт за это ответственность? Каков зарубежный и отечественный опыт? Нужен ли специальный закон об ИИ или достаточно актуализации существующего законодательства?

Тему обсудили эксперты в ходе круглого стола, состоявшегося на площадке Московской международной книжной выставки-ярмарки — 2024.

Как отметил президент Федерации интеллектуальной собственности Сергей МАТВЕЕВ, дополнительных правовых аспектов с появлением ИИ в принципе не возникает: главное — понимать, что и чем регулируется уже сейчас:

— Вопросы дипфейков, использования голосов, образов — всё это урегулировано начиная с конституционных гарантий до норм Гражданского кодекса (ГК) РФ о защите личности, чести, достоинства и репутации. Эти права человека не имеют отношения к правам интеллектуальной собственности (ИС). Любые мнения о том, что голос надо сделать объектом ИС, непрофессиональны и аморальны, потому что вопросы, касающиеся личности, решает только ближний круг семьи, а не тот или иной правообладатель. Если человек дал согласие на какой-либо вид использования образа или голоса, это его право. Но оно не может оборачиваться так же, как право ИС, потому что это не просто купля-продажа исключительного права на объект ИС. Это каждый раз затрагивает человека напрямую.

Что касается ИИ, то можно говорить в терминах европейских правопорядков, считает эксперт:

— Там действительно стоят на том, что есть объекты, охраняемые авторским правом: изображения, музыка, фонограммы, исполнение, литературные произведения. Существует абсолютное право ИС, которое защищает такие объекты от посягательства любых лиц, и оно незыблемо. Очевидно, что по поводу ИИ только один вопрос: когда учим нейросеть, что это за вид использования? В ГК РФ их несколько: доведение до всеобщего сведения, эфирное и кабельное вещание, воспроизведение на материальных носителях. Но очевидно, что обучение ИИ не подпадает ни под один из этих видов. Европейцы назвали столь своеобразный вид использования извлечением фрагментов. Ввели специальный вид использования и пояснили, что он входит в состав исключительных прав, принадлежащих автору или другому правообладателю. Автор или правообладатель может разрешать или запрещать разработчику ИИ использовать его произведение посредством извлечения фрагментов. Конечно, некоторые разработчики ИИ утверждают: какая разница, смотрит текст или картинку человек либо нейросеть. Это словесная манипуляция. Разница есть, и она существенна. Когда мы предоставляем произведения человеку, мы развиваем его ум, творческие способности, а когда «кормим» ИИ, преследуем иные цели, скорее всего прямо противоположные интеллектуальному развитию человека. Чтобы облегчить защиту прав, европейцы ввели обязанность: каждый разработчик ИИ по требованию правообладателя должен раскрыть, на чём обучали нейросеть.

Контент в нейросетях: правовые аспекты регулирования

Как обстоит дело в реальности? С. Матвеев продолжил:

— К чему приводит такое, на первый взгляд справедливое, регулирование? Несложно представить себе авторов, которые ходят по разработчикам ИИ и пытаются воспользоваться своим правом, задавая вопрос: «Расскажите, на чём вы обучали свой ИИ?» Им отвечают: на чём-то, что находится в public domain. Затем автор, тестируя ИИ промптами, всё же извлекает фрагменты своего произведения. Обращается в суд и говорит, что тот или иной набор слов или изображений — часть его произведения. Согласитесь, доказать факт нарушения прав при обучении ИИ практически невозможно.

Разумеется, не все разработчики ИИ поступают таким образом. Некоторые начинают взаиморасчёты с правообладателями. Они признают рамки норм, понимают, что если что-то находится в открытом доступе в Интернете, в архиве или в библиотеке, это нельзя свободно брать и использовать. Для обучения ИИ, на этот отдельный вид использования, надо получать согласие правообладателя. Они начинают приобретать контент для таких целей. Но и тут возникает ещё один трудноразрешимый вопрос. Когда автор или правообладатель даёт разрешение на доведение до всеобщего сведения, мы понимаем, что в дальнейшем использование произведения можно прекратить по желанию автора. Но, «скормив» произведение нейросети, мы никогда больше не изымем его: слои обучения нейросети невозможно затереть до конца. И это ситуация, очень близкая к производным и сложным произведениям. Если композитор отдал музыку в фильм, он утратил возможность управлять её использованием. В ряде стран, и в России в частности, для таких случаев нормы закона предусматривают компенсацию. Фильм идёт в прокате, и автор, не управляя напрямую своими правами, всё же что-то получает.

Каков итог, по мнению эксперта?

— К сожалению, следует признать, что всё, что можно было использовать для обучения ИИ, уже украдено. «Все крупные современные состояния нажиты самым бесчестным путём» — вы прекрасно помните этот тезис Маркса, удачно использованный в романе Ильфа и Петрова. Сегодня его уместно перефразировать: «Все крупные современные генеративные системы обучены самым бесчестным путём». Нет ни одной системы ИИ, которая была бы полностью обучена без нарушения прав авторов и других правообладателей. Если мы это честно признаем, то надо думать о компенсационных моделях, потому что других способов восстановить баланс интересов правообладателей и разработчиков ИИ невозможно.

Конечно, мы понимаем, что те, кто строит системы ИИ и обучает их, делают невероятно большое и важное дело. Они играют в глобальную, жёсткую конкурентную игру. Но для них легализация использования контента для обучения открывает дополнительные возможности.

Вероятнее всего, никакого способа управлять правами по «европейской модели» нет. Любые нормы будут декларативными, поскольку авторы и правообладатели по отношению к разработчикам ИИ всегда будут слабой стороной. Но могут иметь место компенсационные модели. И ещё разумно было бы прямо разрешить использовать без согласия автора произведения для обучения нейросетей в научных целях, т.е. для получения нового знания, а не нового контента. Тогда все эксперименты с ИИ будут легализованы, пока они находятся в «котле» исследований. Но во всех остальных случаях надо думать о компенсациях.

Хотелось бы немного пригасить восторг по поводу ИИ-творца. Когда я писал свою книгу, часто экспериментировал с ChatGPT и искренне радовался, когда генеративная система не выдавала ничего похожего на мой текст. Убеждён, что обогащать нашу культуру, искать новые подходы в творчестве, в восприятии будет человек. Забыв об авторах сейчас, «скармливая» весь имеющийся контент ИИ, мы получим в итоге «истощённые рудники», в которых, сколько ни мой, золота не намоешь, — подчеркнул в завершение С. Матвеев.

Вопрос непростой, и необходимо его разделить на несколько моментов: как обучать сети, как доказывать, что они основаны на заимствованиях, и то, как выявлять незаконные случаи использования, считает Максим РЯБЫКО, член правления Ассоциации по защите авторских прав в Интернете:

— Согласен с позицией, что большинство нейросетей нелегально используют авторский контент. Можно привести аналогию: когда появлялись первые UGC-ресурсы, они строились по такому же принципу: контент закачивался массовым образом без согласия правообладателей. Было очевидно, что у единичного количества правообладателей появится шанс быстро обнаружить нелегальный контент, отреагировать на него и удалить. Но даже если они это делали, была возможность в частном порядке отрегулировать, договориться, предоставить ограниченный инструментарий для модерации. Это привело к тому, что возникло несколько крупнейших компаний, которые фактически на чужом контенте построили целые корпорации, в том числе монетизируя определённые активности пользователей, обучаясь на их поведенческих моделях и формируя так называемые Big Data. Это стало прообразом того, что правообладатели битву с ИИ проиграли. Всем стало понятно, что проще и эффективнее писать код, нежели сочинять законы. Мы видели, как появлялись нормативные акты, подобные DMCA, правила Fair use (справедливого использования). Вслед за этим в нашем законодательстве возникали определения: информационных посредников, свободного использования, пытались разграничить, где можно использовать контент, а где нельзя, что является нелегальным использованием контента. Но всё равно мы наступаем на те же грабли, потому что создание новых продуктов не останавливается и абстрактные риски не становятся барьерами для ИT-стартапов. ИT-компании продолжают экспериментировать, создавать что-то новое, следовать трендам и никогда ограничительные меры не являлись препятствием.

Эксперт согласен и со вторым тезисом: надо исходить из того, что всё уже украдено:

— Современные ИТ-гиганты в открытую говорят: для того чтобы нейросеть обучить, создать датасет, надо зайти в архив пиратских книг, скачать их, разметить и обучить под конкретную цель, затем донастроить систему… Не представляю, как это можно доказать. Придётся пройти тот же путь, что и с заимствованиями, с пиратством в Интернете, когда мы судей учили тому, что такое сайт, хостинг-провайдер, DNS, кто такой информационный посредник, за что он должен отвечать, является ли эта переработка нелегальным использованием, почему должна нести ответственность ИT-компания… Надо ли принимать новые законы, и если да, то какие?

— Цифровые платформы поддерживают тезис, что не надо ничего придумывать: всё уже написано. Это, с одной стороны, справедливый тезис, но он ими используется для того, чтобы сыграть с нами в ту же игру, что и раньше: в подмену понятий. Они, например, говорят, что это не использование, называя другими словами, что их цели научные, т.е. правомерные, что это не они используют, а посредник. Но, опираясь на опыт предыдущих конструкций, созданных для информационных посредников (концепцию безопасной гавани для посредников), а также на судебную практику, мы приходим к тому, что суды так и не поняли законы экономики внимания, основанной на обороте чужого контента. Они до сих пор считают, что количество использований или случаев взаимодействия с контентом не является критерием для выплаты компенсации за нарушение платформой прав автора. Какая разница, говорят судьи, сколько человек посмотрело контент: 100 человек, 10 тыс. или 5 млн? Есть стандартная компенсация, выработанная практикой: 100 тыс. рублей за факт использования. Это наталкивает на мысль о том, что наша текущая правовая конструкция и сегодняшняя практика оторваны от того, как выстроена юнит-экономика, на чём строятся сетевые эффекты роста цифровых платформ. Думаю, что новая законодательная баталия по регулированию ИИ будет разворачиваться сейчас в том смысле, что появятся две группы. Одна будет выступать за то, чтобы конкретизировать нормативные акты в отношении ИИ, и говорить, что наполнение датасетов контентом должно быть размечено, разработчики должны раскрывать информацию о том, где был взят контент и какой был скопирован в базу для дальнейшего обучения ИИ. Раньше автор мог зайти в ChatGPT, задать простые запросы и понять, есть ли там его контент, а сейчас разработчики подстраховались и внедрили фильтры на такие запросы, ограничения технического толка. Разработчики ИИ начинают подстраиваться и, понимая, что их выводят на чистую воду, закрывают возможность выудить конкретику об источниках, на которых обучалась нейросеть. Но даже если мы докажем, что львиная доля контента, на котором построены модели обучения ИИ, получена без согласия правообладателя, то переобучать нейросеть только на контенте, не охраняемом авторским правом, никто не будет: «фарш невозможно провернуть назад». Разработчики могут подменить одну сеть другой и говорить о том, что продают узко обученную нейронку, а всё остальное существует только в научных целях. Но поскольку между пользователями и разработчиком появляется ещё и коммерческий посредник, который не может прикрыться научными целями для свободного использования, возникает вопрос объёма такого использования, чтобы не нарушать закон.

Фактически в нейросети скопирован весь Интернет: сложно такой объём оправдать любой целью в текущих правовых конструкциях, особенно когда к этой, пусть и научной, разработке даётся доступ миллионам людей за регулярную плату. И мы здесь наталкиваемся ещё на один подводный камень, который в России заложили адепты «безопасной гавани», предоставившие правовой иммунитет от ответственности информационным посредникам. Они изменили нормы DMCA и в ГК РФ прописали вместо формулировки «не знал и не мог знать» фразу «не знал и не должен был знать». Поэтому все разработчики ИИ и коммерческие посредники, которые используют продукты ИИ, основанные на мировом контенте, так и говорят: я не должен был знать, я не обязан ничего проверять, идентифицировать, искать на предмет использования чьих-то прав. Чтобы я это делал, нужно, чтобы было прямо написано в законе, что и где должен проверять посредник, тогда в дальнейшем можно использовать результаты легально. Наконец, отсутствует техническая возможность определить такие заимствования чужого контента и их объём.

Мы можем сейчас написать, поправить что-то или ничего не делать, используя текущие формулировки. Но уверен, что российские правообладатели эту битву проиграют. Согласен с тем, что надо придумывать некие модели, которые дадут разработчикам безопасную возможность раскрыть свои базы: как они обучены и размечены, и определить механизмы глобального использования датасетов через универсальные ставки, возможно, прописать отдельные способы применения моделей, обученных на чужом контенте. Пока же мы в российских законах не отрегулировали даже вопрос с саммаризацией произведений. В США на законодательном уровне её назвали специальным способом использования, а у нас это «переработка той или иной степени». В судах издатели сталкиваются с кейсами, когда контент на 80% повторяет авторский, но это всего 20% книги, и суд говорит, что этого слишком мало для ответственности. Очевидно, необходимы механизмы, которые сделают использование авторского контента в нейросетях прозрачным и безопасным. Конечно, для компаний, занимающихся ИИ, должны быть свои стандарты добросовестных информационных посредников, освобождённых от ответственности. Есть в ГК РФ ст. 1253, в примечании 1 к которой говорится, что для информационных посредников в законе могут быть предусмотрены иные необходимые и достаточные меры, которые те должны принять для разных видов использования контента. Думаю, что в подзаконных актах можно и нужно прописать принципы добросовестного поведения цифровых посредников с учётом особенностей оборота контента для всех видов креативных индустрий: прямо прописать либо особенности таких способов использования, как обучение и дальнейшее использование в нейросетях, либо допустимые пределы такого использования. Может быть, по аналогии с использованием «сиротских» произведений.

Проблемы и подходы у контентных отраслей общие, уверена Ирина ГУЩИНА, юридический советник Национальной федерации музыкальной индустрии:

— С нашей точки зрения, если сам ИИ, без творческого участия человека, что-то сделал, это не охраняется авторским правом. Если же нейросеть берёт в работу произведения, созданные человеком, это считается использованием и следует получать согласие правообладателя. И если используются образы публичных личностей, их цифровые голоса и т.д., это тоже должно делаться с разрешения правообладателя.

Как сейчас обстоит дело в России? Защищается ли авторским правом то, что делает ИИ? По словам эксперта, законодательство чётко говорит о том, что автор — это исключительно человек, трудом которого создано произведение. Если человек лишь оказывает организационную помощь и не участвует в создании контента, он автором не считается. В России автор — это только физическое лицо. Если в рамках компании её сотрудник создаёт произведение, то изначально весь комплекс прав возникает у него, а компании они передаются как на служебное произведение. То есть российское законодательство привязано к понятию автора как человека, который при помощи своего творческого труда создаёт контент.

Проблема заключается в том, что в законодательстве нет определения того, что такое творческий вклад. Но есть судебная практика, и обычно споры касаются интересных аспектов.

— Например, Верховный Суд РФ постановил, что объекты, созданные с помощью технических средств в отсутствие творческого характера деятельности человека, авторским правом не охраняются. Этот вывод касался камеры автоматического наблюдения, которая фиксирует административные нарушения и соответственно никаким творческим участием не обладает. Такой же подход можно использовать для ИИ: если он без участия человека что-то сделал, то результат авторским правом не охраняется.

Если ИИ использует работы, которые были созданы реальными людьми, это тоже способ использования, зафиксированный в ГК РФ, скажем переработка. В любом случае использование чужой работы требует разрешения правообладателя. Существуют исключения, самое близкое к нам — это цитирование. Но для него тоже есть требования: должен быть использован разумный объём первоначального произведения, при этом необходимо указать автора и источник цитаты. ИИ так не делает, и если он выдаёт готовую иллюстрацию или текст, то не пишет, на основе чего они были созданы.

Разумеется, права авторов при использовании их контента ИИ должны быть защищены. На сегодняшний день предусматриваются разные виды ответственности: денежные компенсации, требование о пресечении нарушения, компенсация морального вреда. Но как отметили коллеги, есть проблемы и главная из них — большая сложность в определении того, что конкретная работа была использована при генерации результата нейросетью. Здесь непросто полагаться на какие-либо доказательства, особенно если это текст, потому что многие авторы, даже не зная того, используют какие-то штампы, устойчивые выражения. Можно найти примеры точно таких же словесных оборотов в разных произведениях, и становится трудно доказать, что именно ваши права были нарушены. Единственное решение — вести учёт объектов, которые были использованы ИИ, но это трудноосуществимо, поскольку мало какие корпорации хотят делиться тем, на каких ресурсах они обучали свои системы.

Что касается дипфейков, цифровых образов и синтезированных голосов, то сейчас прямая охрана в ГК РФ предоставляется только изображениям людей и обсуждается законопроект с цифровыми голосами, которые сгенерированы и похожи на голоса популярных людей, отметила эксперт:

— Наша позиция такова: голос — это явление, которое может быть похоже на другие голоса. Но популярные люди вкладывают большие усилия в продвижение своего публичного образа, типичных черт, присущих их речи. Некоторых известных актёров легко определить по голосу, интонированию, определённым словам. Это ценный ресурс, который надо охранять. Поэтому мы предлагаем не только защищать голос, но и распространить охрану на весь образ личности, чтобы была основа для полноценной правовой защиты в случае нарушений. Дополнительно мы предлагаем проводить маркировку контента, сгенерированного нейросетью.

Насколько возможно сейчас организовать маркировку и обеспечить минимальную прозрачность и вступление на правовой путь?

М. Рябыко:

— Приведу аналогию: когда мы общались с UGC-платформами, они утверждали, что отсутствует техническая возможность так сделать и вообще нет понимания, зачем это нужно. Думаю, что мы столкнёмся с теми же аргументами: «давайте обсудим, насколько это будет эффективно», «вдруг мы что-то потеряем» и т.д. Сама по себе пометка о том, что контент создан ИИ, с точки зрения правовой охраны ничего не даёт. Необходимо будет насыщать всё это метаданными.

С. Матвеев:

— Это важный момент с точки зрения защиты прав потребителей. Я хочу понимать, сделано это человеком (и меня это радует) или роботом. Представители некоторых компаний честно заявляют: они собирают контент в Интернете, но хотят уважать права авторов. Они готовы игнорировать при обработке контента произведения, отмеченные специальным значком, и не пускать это в нейросеть для обучения. Но безусловно, это защита утопающих силами самих утопающих. Это как если не поставить замок и сигнализацию, тогда можно зайти к вам в дом, взять еду из вашего холодильника, но, если вы напишете, что нельзя так делать, конечно, к вам прислушаются.

М. Рябыко:

— Без стандартов для таких разработчиков: что они имеют право делать, как насыщать контент — очень сложно. Могу обозначить четыре пункта декларации зарубежных издателей по результатам судебных баталий.

Необходима прозрачность в отношении того, на каких книгах обучался ИИ.
Нет никаких препятствий технологического свойства, для того чтобы обеспечить компаниям доступ к лицензированию.
Обучение ИИ на книгах должно лицензироваться отдельным способом.
Технологические компании не должны обходить издателей, обучая ИИ через сбор информации на пиратских сайтах.

Действительно, вызовов и опасностей немало, поэтому необходимы консолидированные, взвешенные юридические решения и постоянное взаимодействие с технологическими платформами, законодателями и юристами, а также активная позиция отрасли. Разговор о законодательном и отраслевом регулировании ИИ будет продолжен в рамках специальных рабочих групп.

Рубрика: Copyright

Год: 2024

Месяц: Октябрь

Теги: Московская международная книжная ярмарка (ММКЯ) Авторское право Нейросети Искусственный интеллект (ИИ) Интеллектуальная собственность Сергей Матвеев Максим Рябыко Ирина Гущина